【アンケートデータ可視化】データ加工ふりかえり
はじめに
データアナリティクス事業本部 BIチームのkariyaです。
BIチームでは、アンケートデータの可視化をテーマにブログリレーを行っています。
今回のブログリレーでは、アンケートデータの加工をTableau Prep、Alteryx、Power Queryで実施してきました。
- 【アンケートデータ可視化】データ加工をやってみた~Tableau Prep編~
- 【アンケートデータ可視化】データ加工をやってみた~Alteryx編~
- 【アンケートデータ可視化】データ加工をやってみた~Power Query編~
データ加工のまとめとして、各ツールを比較しながらデータ加工についてふりかえってみます。
インプットデータ
東京都の丸の内仲通りで、自動運転バス走行実証実験が実施されています。 実証実験の詳細に関してはこちらをご覧ください。
実証実験の結果がオープンデータとして公開されていますので、今回はその中から以下のデータを使用しました。
アンケート結果(歩行者)データ例はこちらです。
赤枠内に質問が記載されており、質問ごとに1列を使用しています。
アンケート結果(試乗体験者)のデータ例はこちらです。
歩行者と同様に、質問ごとに1列を使用していますが、質問の数が異なります。
なぜデータ加工をするのか
そのままBIツールで可視化きるようなデータが用意されていれば理想的ですが、実際には加工なしで使えるとは限りません。 例えば、今回使用したアンケートデータでは以下のような特徴がありました。
- 複数の回答が1列にセミコロン区切りで入っている
- ヘッダーに質問が入っている
今回のデータ加工の記事では、下記のようにデータの加工を行いました。
- テーブル構造(行や列)の変更:行や列の追加・削除、1行を複数行に分割、データの縦持ち横持ちの変換など
- データ自体の変更:表記ゆれの統一、ブランクの置換など
- その他:複数ファイルの統合、ファイル形式を変えて出力など
データ加工の結果
下記のレイアウトになるように、データを加工しました。 歩行者と試乗体験者で分かれている2ファイルを合わせた結果になるため、どちらのアンケートに回答した結果かが分かるように回答者IDなどの項目を追加しています。 (★は元々のデータには列としては存在しない項目です)
- 会員No
- 回答ID:回答者が増える度に採番されるID。歩行者、試乗体験者それぞれで採番される
- 回答者フラグ(★):歩行者 or 試乗体験者のどちらか
- 回答者ID(★):回答ID&回答者フラグを組み合わせた、回答者を一意に特定するもの
- 年齢
- 性別
- 職業
- 登録日
- 質問(★)
- 回答(★)
加工後のイメージはこちらです。 レイアウトの異なる歩行者と試乗体験者のアンケートを、同じレイアウトに変換しています。
データ加工時に気を付けること
今回のデータ加工では、データ1行がどのような単位のデータかが変化していきました。
加工前は、1行に1人分の全ての質問が入っていました。
横持ちのデータを縦持ちにすることで、1人に対して質問ごとに行を分けました。1行に1人分の1つの質問が入っている状態です。
上記はセミコロン区切りで複数の回答が入っていますので、さらに回答ごとに行を分けました。1行に1人分の1つの質問の1つの回答が入っている状態です。
もし1行にどの単位でデータが入っているかの理解が誤っていると、その後の処理で意図しない結果になってしまいます。
今回は1行のデータの単位を例として挙げましたが、どのツールを使うとしても、各ステップでデータがどう変化したかを理解して進めることが大切です。 各ステップの前後のデータを見比べるなど、実際のデータを見ながら進めていきましょう。
また、処理が複雑になると後から理解することが大変になりますので、コメント機能などを用いてどのステップで何をしているか、分かりやすくコメントで残しておくと良いでしょう。
どのツールを選ぶべきか
今回実施したかった加工については、どのツールでも実現はできました。 ただし、縦持ち横持ちの変換など複雑な処理の場合は、ツールによっては1つの処理で実施でき、別のツールでは複数の処理を組み合わせるなど、処理内容がシンプルになるかは実現したいことやツールにより異なると感じました。
自分がツール選定をする場合は、例えば以下の観点があると思います。
そのツールでしか実現できないことがあるか
例えば、Alteryxでは出力できるファイルの種類が豊富です。
特定のファイル形式を入出力したいなど、そのツールでしかできないことがある場合はツール選定の理由になるでしょう。
BIツールでのデータ取込など、加工後に使用しやすいか
Tableau Desktopで使用するためTableau Prepで加工する、Power BIで使用するためPower Queryで加工するといった場合が考えられます。
作成者・使用者のスキルに合っているか
Tableau Prepでは、既存のステップに他のステップをドラッグすると結合やユニオンの選択肢が出るなど、直観的に処理を作成することが可能です。
Alteryxでは、各機能が細かく細分化されているため、処理の流れの直観的な理解がしやすいです。
Power Queryでは、GUIで処理を追加することも、コードのように直接処理を作成・訂正することも可能です。
同じ加工結果を得る場合でも、その実装方法はツールにより様々です。担当者が操作しやすい、あるいは学習しやすいなど、スキルに合ったツールを選ぶと良いでしょう。
おわりに
同じ処理でも各ツールでどのように実現しているかに違いがありますので、よろしければ各記事を読み比べて楽しんで頂けますと幸いです。
最後までお読みいただきありがとうございました。 次はデータ可視化についてもふりかえり記事を予定していますので、そちらもご期待下さい!